查看原文
其他

montreal 2018-05-27

全文11431字,建议阅读时间10分钟


今天,生信人为大家带来一段基因组测序的传奇故事——水熊虫基因组事件。


传奇的故事离不开传奇的主人公。在小说《三体》里,每逢危急时刻,三体人便会大喝一声:脱水,于是便进入休眠状态,待到外界条件恢复正常再苏醒。其实,具有这种“特异功能”的生物真的存在,它,就是我们故事的主人公——水熊虫。水熊虫的英文是water bears,也可以称为tardigrades(缓步动物,见下文)。其体型微小,大概就是几十微米到几百微米之间。水熊虫是地球上已知最为顽强的生物,上至海拔5000米高山,下至4000米的海底都有分布。其可以忍受从-270到150摄氏度的高温,也可以在辐射暴露、低温的外太空真空环境里生存十天(Jonsson et al., 2008)。据称,1948年,意大利学者Tina Franceschi发现博物馆干苔藓中的水熊虫在隐居一个世纪又二十年后,接触水可以即刻复活(reviewed in (Jonsson & Bertolani, 2001))(尽管该说法从未被证实)。总之,水熊虫就是这样一个上得刀山、下得火海、出得太空、受得辐射,忍得了一时之痛苦、耐得住万古之凄凉的“三体怪兽”。可以说,想杀死它,除了物理碾压,几乎是无计可施。

 “三体怪兽”水熊虫。图片来自维基百科。

 

好了,这样一种奇幻的生物,自然吸引了众多学者的注意力。首先就是探索水熊虫是如何适应各种极端环境并在极端环境褪去后苏醒的机制。此外,分类上水熊虫属于缓步动物门(Tardigrada),同线虫动物门和节肢动物门等一道组成了蜕皮动物(Ecdysozoa),注意经典模式生物秀丽隐杆线虫(Caenorhabditis elegans)和黑腹果蝇(Drosophila melanogaster)也都包含在蜕皮动物中,由此可见对于水熊虫的研究在进化生物学上也有重要意义。

 

2015年11月的一天,英国爱丁堡(Edinburgh,Britain)

为了在基因组层面一窥水熊虫的奥秘,英国爱丁堡大学(University of Edinburgh)的教授Mark Baxter所领导的团队(简称爱丁堡团队)早在2012年前后就对这种神奇的生物展开了全基因组测序工作,并且建立了数据库tardigrades.org对数据进行共享(Blaxter, 2016)。对线虫基因组有一定了解的读者大概并不陌生,Blaxter教授在线虫进化和基因组领域绝对是响当当的名字。前面说了,水熊虫在分类上与线虫算是比较接近的,因此Blaxter教授参与到水熊虫基因组测序的工作中大概也是不足为奇的。

 

然而,2015年11月的一天,一封电子邮件让Blaxter教授顿时陷入了前所未有的不安之中(the biggest sinking feeling)(Blaxter, 2016)。来信的是来自美国北卡罗来纳大学教堂山分校(University of North Carolina at Chapel Hill; UNC)的Bob Goldstein教授。Goldstein教授在信中说,他们完成了对于同一种水熊虫的测序,并且文章即将发表在《美国科学院院报》(简称PNAS;顶级学术期刊,小编注)(Blaxter, 2016)。

 

实际上,Blaxter教授并非不知道来自大西洋彼岸的竞争对手(Blaxter, 2016)。或许是水熊虫这种神奇的生物太具魔力,两个团队为破解其基因组暗中发力,在此期间几乎没有什么合作(Blaxter, 2016)。可想而知,这个打击对于Blaxter教授来讲是巨大的,对于一项基因组测序工作,第二个完成的,很可能就意味着——失败,因为基因组DNA就摆在那里,先测后测,序列都是一样。Blaxter教授后来表示,当时自己十分后悔没能早一点完成,但也很无奈,因为没有足够多的时间和经费去更好地完成这项研究。不过,Blaxter决定,还是等待北卡团队文章的在网上刊出(Blaxter, 2016)。

 

2015年11月23日,美国北卡罗拉纳州教堂山市(Chapel Hill,NC,USA)

PNAS的编辑们没有让Blaxter等得太久,几天后,三体怪兽水熊虫的史上第一份基因组在线发表(published ahead of print)。被测序的水熊虫拉丁名叫Hypsibius dujardini。前面说过,该基因组的测序团队主要来自北卡罗来纳大学教堂山分校(University of North Carolina at Chapel Hill; UNC)。为方便起见,我们这里称为北卡团队。北卡团队由前面刚刚提到的、在线虫和水熊虫发育生物学等领域享有极高声望的Goldstein坐镇,文章的第一和通讯作者是Boothby。

 

Btw:UNC的篮球非常出名,飞人乔丹、文森卡特、拉里布朗等一干街知巷闻的NBA明星都出自这里。

 

大家知道,评价基因组测序和组装质量的两个重要指标是contig N50和完整度(completeness)(生信人电子书合集《杂谈组装》)。北卡团队的这份基因组采用长读段测序(long-read sequencing)和短读段测序相结合的测序方法,包括Moleculo、PacBio和Illumina等技术,测序的基因组平均覆盖度达到126 X。最终的组装N50=15.2Kb,大小为212.3Mb,包含38145个基因(Boothby et al., 2015)。常规的CEGMA分析结果显示,真核生物核心基因(core eukaryotic genes)的完整度为95.16%(Boothby et al., 2015)。(更多关于基因组评估标准的见此文:详细分析基因组完整性评估

 

15年的时候,如果只是完成基因组的测序而没有做进一步的分析,显然是不能把文章发到PNAS这种级别的杂志上的。精彩的内容开始了。北卡团队对基因组的进一步分析得到了一个令人惊讶的结果,“Preliminary BLAST analysis showed that an unexpectedly large proportion of the genes present in the H. dujardini genome had a top hit to sequences from nonmetazoan sources”。翻译过来就是,水熊虫基因组内有很多基因的BLAST最佳匹配是除后生动物(也译作多细胞动物)之外的其他物种。于是,北卡团队的作者推测,这些基因是水熊虫由其他生物处“偷来的”!而这种偷取基因的方式,在生物学上被称为水平基因转移(lateral gene transfer,LGT;horizontal gene transfer,HGT)。这个结果为何如此重要且振奋人心,下面马上有写。

 

什么是水平转移(lateral gene transfer,LGT;horizontal gene transfer,HGT)?说到水平,就要了解一下它和垂直的关系。一般认为,大多数基因的流动是从祖先物种,经由物种分化,传递到后代的物种。如果将祖先和显存物种的关系用树的形状描画出来,可以看到,这种基因传递的方式是一个垂直的传递。而水平传递是指,一种生物从另一种生物处直接获得基因。打一个不太恰当的比方,垂直基因传递就是一个物种老老实实地继承祖辈家产,而水平基因传递就好似一个物种直接从其他物种处窃取甚至打劫财物。(更多关于水平基因的介绍见此文:HGT:水平基因转移简单介绍

 

图中,A、B、C为三个不同物种。左为基因的垂直传递,右为基因的横向(水平)传递。图片来自网络

 

为了test这个假说(hypothesis),北卡团队运用一种被称为HGT indexing的方法,并通过基因树(gene tree)加以验证。结果显示,占水熊虫基因组内17.5%(6663)的基因是经水平转移,由其他生物处得到的!请记住这个比例,差不多是六分之一稍稍多一点。这些外来基因(下图左黄色区域,标为Foreign),绝大部分来自细菌(91.7%,下图右橙色部分)。

 

等下,如何确定这些序列不是细菌污染的产物呢?能问到这个问题的朋友,大概都是行家了。北卡团队的作者们当然也考虑到了这个问题。他们随机选了107个被认为是水平转移的基因,通过PCR扩增和PacBio单分子测序两种方法,分析了这些基因是否同基因组的其他基因在组装的得到的genome上连在一起(physically linked)。两种办法得到了非常相似的结果,107个中的104个基因被认为是physically linked到水熊虫的基因组上(见原文的sd02)。北卡团队认为,综合以上证据,水熊虫神偷卡门的说法,终于可以坐实了!

 

这绝对是一个轰动性的结果(小编以为虽然类似词语被滥用,但这里绝对是准确无误的)!为什么?要知道,水平转移,在当时看来,是一种常见于原核生物(prokaryotes,包括bacteria+archaea)之中的现象;其在真核生物(eukaryotes)之间或者真核生物同原核生物之间的频率要远远少于在原核生物中观察到的频率。那么,真核生物基因组中水平转移得到的基因一般都有多少呢。出芽酵母、秀丽隐杆线虫、阿米巴虫和滴虫(Trichomonas)都不超过1%,而当时已知最高比例的真核生物,轮虫(Rotifer)也不过8%左右 (reviewed in (Richards & Monier, 2016))。而三体怪兽水熊虫,其高达17%的比例将当时完成测序的所有其他真核生物远远甩在身后。这一研究成果,将直接改变大家对真核生物基因传递方式的理解,并对“生命之树”(tree of life)的概念产生很大冲击。

 

北卡团队进一步分析了这些“偷来”的基因的功能。他们发现,有不少都是在DNA repair、stress tolerance等通路中发挥功能的。于是,作者们进一步猜测,水熊虫这种对于外来基因兼容并包的特点,使其能够获得很多应对不利环境和DNA损伤的基因,从而具有其他生物所不具备的超强抗打击能力。可以说,北卡团队的这篇文章,不仅揭开了水熊虫基因组的神秘面纱,还对其极端环境适应力提供了基因组水平上的解释,并直接挑战了学界对于基因传递方式的理解(一箭三雕!)。实际上,这一切,从北卡团队的文章标题(Evidence for extensive horizontal gene transfer from the draft genome of a tardigrade)就可以看出来了。

 

这样的结果当然让媒体疯狂了一把。一时间,包括《华盛顿邮报》、《每日镜报》在内的著名报社和Phys.org等一众学术网站都报道了这一轰动性发现。社交媒体上,诸多学者也奔走相告。总之,这个重大突破以迅雷不及掩耳盗铃之势席卷了整个基因组学共同体(genomics community)。对于这样的结果,你的心情是不是也很兴奋呢? 

 

2015年11月24日,加拿大魁北克省蒙特利尔(Montréal,Québec,Canada)

不管大家心情如何,几乎是在第一时间了解到这篇文章的小编,当时真是心潮澎湃。当日,小编便迫不及待地同系里的一位同学分享了这桩基因组学的轰动性事件。其实,小编之所以跟这位老兄聊起这件事还有一个原因,是因为其从事的研究和水平及因转移有密切的关系,且是该学说的忠实拥趸。不想,听罢之后,这位老兄直接一盆冷水迎面泼来:“我担忧是否存在污染”。几天后,这位老兄告诉小编,他写信问过了作者,作者详细地回应了质疑,但表示已经用了严格的培养条件,将污染降到了最低。然而,这位老兄还是表示十分怀疑。


2015年11月24日-29日,德国图宾根(Tübingen,Germany)

表示怀疑的绝不只是小编的这位同学。让我们回到网络。就在网络上的一片叫好之声中,也夹杂着零星的反对声音。来自德国马普发育生物学研究所(Max Planck Institute for Developmental Biology)的破四道Bemm Felix在北卡组论文发表后的连续两天里公开发推表示了自己的疑惑:

如果说对于Bemm是谁不太了解的话,请看下面的推特。

 


绝不是重名,水熊虫基因组居然惊动了——Detlef Weigel(的实验室推特账号),拟南芥1001基因组计划发起人——一个植物科学界响当当的名字。仔细看看植物学大佬(的实验室)在推特上写了什么:北卡组的采用了传统的Illumina短读段测序加上当其时刚刚兴起的长读段测序技术(pacbio+Moleculo)——然而最终得到的N50只有16kb——这,是不是有点儿,太短了?前面说了,当时的网络对于北卡团队的成果几乎全是溢美之词,而Felix等马普发育所的一队人马“跨界”到水熊虫领域凑热闹发推质疑,是何居心?这里先按下不表。

 

更有好事者,在推特上注册了两个以水熊虫为名的账户(下图可见注册时间都是15年11月)。

其中一个还在11月29日调皮地发推表示:On my way to steal your gene(正在偷取你基因的路上)。此推甚至砍下42个转发和50个like的超级两双数据,可见本次事件短短几日内已经在学界引起广泛关注。 

 


2015年11月23日-2015年11月30日,英国爱丁堡

让我们回到文初提到的爱丁堡大学Blaxter教授的实验室。不知道Blaxter教授在接到北卡团队的来信后的每一天是不是连刷PNAS主页,即使不是如此,这几天也一定是在巨大的失望和不祥预感(sinking feeling)中度过。

 

意想不到的事出现了,在看到北卡团队的文章后,Blaxter教授迅速产生了第二个“不详的预感”(I had a second sinking feeling)。因为,Blaxter教授从看到北卡团队文章标题的第一眼就迅速预感到,北卡团队的文章,有问题!(Blaxter, 2016)

 

为什么?前面说了,Blaxter团队当时也已经对同样的水熊虫进行基因组测序大概四年之久,但在他们的数据中并未找到北卡团队发现的大量的水平转移基因。此外,Blaxter发现,北卡团队中居然没有对基因组是否存在细菌污染进行严格检验——而这些检验是爱丁堡团队中的必备项目(Blaxter, 2016)。Blaxter教授对于北卡团队的结果顿生怀疑。接下来的三天里(严格说是获取到北卡团队原始数据后的连续三天里,因为北卡版基因组并未在文章发表前或发表时公开),爱丁堡团队对北卡团队的原始数据进行了仔细的分析——他们得出了与北卡团队完全相反的结果,没有发现高比例的水平转移基因。在周末,Blaxter流星赶月般完成了manuscript的写作(Blaxter, 2016)。 

2015年12月1日,英国爱丁堡

就在北卡团队文章出炉的8天后,Mark Blaxter教授领导的爱丁堡团队迅速地将赶制的manuscript以preprint形式投放在bioRxiv,也正式引爆了一场好戏:

其题目很简单:水熊虫H. dujardini的基因组。在摘要里,作者清晰地写到他们独立测序了和北卡团队同一种水熊虫的基因组,但并未发现任何大量水平转移的证据(do not find support for massive horizontal gene transfer)。摘要的最后一句话还写到:研究还在继续当中——似乎表示这篇preprint是匆匆出手投放到bioRxiv的(如前文所述事实也的确如此)。总之,爱丁堡团队与北卡团队测了相同的基因组,但在关键结论上几乎完全相反!

 

让我们看看爱丁堡团队的研究人员是怎么说的。他们首先组装了一个水熊虫基因组,称为爱丁堡1.0版基因组,v1.0的水熊虫基因组大小为185Mb。爱丁堡团队接下来通过一种被称之为blobplot(姑且译为气泡图)的方法对爱丁堡1.0版的水熊虫基因组进行了检测。该图看似简单,实则传递了非常多的信息。这种方法基于下面这个简单的思想:真正属于目标基因组的序列应该有相对均一的GC含量和丰度。作者们将得到的读段(read)比对(map)回拼接得到的contig上,分析其覆盖度(coverage,y轴)和GC含量(x轴)。如图所示的就是爱丁堡1.0版基因组,可以看到,低覆盖度的组装片段(y轴方向较低)大多也具有更高的GC含量(x轴方向较大),更为蹊跷之处在于,这些片段中的大多数在NCBI核酸数据库里的最佳匹配是居然主要都是来自——细菌这一结果直接表明在爱丁堡1.0版的组装里面存在着大量的疑似污染序列(气泡大小代表的含义将在后面介绍)。 

由于怀疑1.0版基因组被细菌污染,接下来,爱丁堡团队对通过blobplot判断找出的可疑序列进行了过滤,得到的新组装就是2.3版基因组(这种把自己所犯错误和如何纠正的过程以记叙文方式写出来的manuscript,真是有趣,只是小编有些担忧到时候审稿人怎么看待)。为了确认v2.3基因组的组装质量,爱丁堡团队对v2.3重新做了一次blobplot气泡图检测,不出意外,之前可疑的“泡泡”都不见了(下图)。不过可以看到,组装得到的部分序列还是有来自细菌的可能性(如橙色气泡所示为最佳匹配来自变形杆菌proteobacteria)。

Btw:爱丁堡团队在后来的正式paper里为了确保从v1.0到v2.3所做的对可疑序列的“大清洗”没有太过(overcleaned),对v1.0和v2.3两个版本,分别进行了对于poly-A转录组的mapping,结果没差。

 

如果北卡团队没有在11月23日将他们的论文发表出来,大概爱丁堡团队的这篇preprint在此就会停住了。然而现在,爱丁堡团队不得不将自己得到的结果(2.3版)同北卡版基因组进行对比,结果在原文的Table 3中呈现。

 

其中有几个结果,非常引人注目,简言之,就是两方面:

1. N50:北卡版的N50在15kb左右,而爱丁堡2.3版则在50kb以上。

2. 基因组大小:北卡版为212Mb,而爱丁堡2.3版仅有135Mb。所含基因数目北卡版38000个,而爱丁堡2.3版只有23000个。

 

针对基因组大小问题,爱丁堡团队还通过一种流式细胞仪技术(propidium iodide flow cytometry)对H. dujardini的基因组大小进行了估计,结果表明大小在110Mb左右;该结果也同北卡团队早在07年的估计相仿(Gabriel et al., 2007)。这一结果显然同北卡团队拼接到的基因组大小有很大差别,反而和爱丁堡基因组v2.3更为接近。为了进一步说明北卡版基因组和爱丁堡版基因组组装方面的不同,爱丁堡团队对北卡版基因组进行了blobplot气泡图分析。 

可以看到,北卡版基因组的pattern似乎和被认为存在严重细菌污染的爱丁堡v1.0版的基因组有很多相似之处:有相当比例的contig呈现出偏倚的覆盖度和GC含量,这些contig大多对应到非真核生物特别是细菌中。这些细菌主要来自变形杆菌(proteobacteria,黄色)和拟杆菌(Bacteroidetes,橙色)。细心的朋友一定会注意到,北卡版基因组中很多疑似污染的序列都对应着很大的泡泡。实际上,在blobplot气泡图里,气泡的直径和contig大小成正比(气泡越大,contig越大)。由图可见,也就是说很多大片段的contig都是来自疑似细菌的污染!

 

爱丁堡团队的作者又对RNA-seq得到的转录组map到北卡版水熊虫基因组上做blobplot。如下图,不同颜色代表不通contig在转录组里的覆盖度,绿色最高,橙色最低。结果显示,那些疑似污染的contig在转录组中的覆盖度也相对较低。

通过整合以上结果和一些其他分析,到这里,爱丁堡团队认为找到了北卡版基因组和爱丁堡版基因组基因组大小差异的原因,那就是北卡版基因组中30%左右的序列可能是错误地将其他生物的DNA当做水熊虫的DNA组装起来了。北卡团队认为,这直接解释了为什么北卡版水熊虫基因组会出现大量的水平转移,其实都是细菌污染惹的祸。当然,爱丁堡版基因组也并非清白——在原文Table 3中,作者同样指出了他们自己测序的基因组中存在约6.8%的污染。

Btw:blobplot这种有趣的检测基因组污染的方法,恰好是由Blaxter领导的爱丁堡团队在数年前开布下的“伏兵”(Kumar & Blaxter, 2011; Geerts et al., 2013)。Blaxter后来说,其实blobplot就是多年前在水熊虫基因组项目中发现有很多细菌的污染,而专登发明出来进行检测用的(Blaxter, 2016)。无怪乎爱丁堡团队可以在短短几天内就对北卡团队的结果进行了如此迅速的检测,原来早有准备。

 

针对北卡团队所说的对水平转移基因和其他基因在基因组上物理相连(physically linked)的结果,爱丁堡团队表示他们重新分析了这些基因,结果发现大概有一半都是同另一个水平转移得到的基因连在一起,也就是,爱丁堡团队认为北卡团队的这一分析有避重就轻之嫌,只是说明这些基因是可以在PCR中看到和其他基因一起P出来,但是这并不能证明到这些基因不是污染的;相反,如果相连的基因是另一个来自细菌的基因,那么反而表明可能是污染所致。

 

爱丁堡团队最后得出结论,水熊虫基因组中水平转移得到的基因,最多也就是500(1-2%)来个,远远小于北卡团队报道的6000余个。

 

好了,现在我们有了两个水熊虫基因组。一个生成大约六分之一的基因来自水平转移,另一个表示这一数字最多不过是1-2%。究竟哪一个正确呢?为此,学界通过网络展开了热烈的讨论,媒体的报道有了新的动向。这里拣几个简单说一下。

 

2015年12月2日,加拿大安大略省圭尔夫市(Guelph,Ontario,Canada)

12月2日,也就是爱丁堡团队将preprint公布在bioRxiv后的第二天,加拿大圭尔夫大学(University of Guelph)的Ryan Gregory教授在网上发文。这位Gregory教授可以说是基因组大小方面久负盛名的专家,其建立的动物基因组大小数据库(http://www.genomesize.com/)是很多学者在基因组大小方面的研究的重要参考。Gregory表示,尽管仍不能确定,但其实验室有结果似乎表示此次北卡和爱丁堡团队测序的水熊虫的基因组大小在100Mb左右,也就是说倾向于支持爱丁堡团队的结果。

 

2015年12月5日,美国巴尔的摩(Baltimore, MD, USA)

12月5日,来自美国马里兰大学(University of Maryland)的Julie Dunning Hotopp教授发表长博客,对来自北卡团队和爱丁堡团队的两个基因组进行了点评。其中,Hotopp表达了对于北卡团队基因组质量方面的怀疑,她对北卡团队原文中的如下说法提出了质疑:Our tardigrade cultures are fed algae, not bacteria, and although our algal cultures are not axenic, we would expect little to no bacterial contamination in our sequencing data(我们用红藻饲喂水熊虫,尽管红藻的培养环境并非无菌,但我们认为水熊虫测序结果中几乎不存在细菌污染)。还有,Hotopp认为北卡团队对于潜在的细菌基因组被当做水熊虫基因组混拼的情况的评估有所欠缺,特别是对其所采用的low coverage PacBio验证错拼的策略表示担忧。

 

2015年12月底,英国爱丁堡

赶在圣诞节前,爱丁堡团队对bioRxiv上的文章进行了更新(Blaxter, 2016)。

 

2016年1月8日,英国爱丁堡

爱丁堡团队的稿件正式向PNAS投出。接下来就是焦急的等待。

 

2016年3月24日,英国爱丁堡

时间过去了两个半月,爱丁堡团队的水熊虫基因组文章终于和大家见面了(真是够快的)。和北卡团队的文章一样,也是发表于PNAS上,连负责的编辑都是同一位教授(Koutsovoulos et al., 2016)。这篇文章的主要结果同之前post到bioRxiv的内容没有大差,只是题目更加犀利,变得完全与北卡团队针锋相对:

爱丁堡团队的title:No evidence for extensive horizontal gene transfer in the genome of the tardigrade Hypsibius dujardini

北卡团队的title:Evidence for extensive horizontal gene transfer from the draft genome of a tardigrade

文章刊出后,媒体上也给予了更多的支持:

好了,现在两篇文章全都正式通过同行评议(peer review)摆在台面上,孰是孰非,需要学界进一步的讨论。难道剧情要逆转?作为一名看客,小编当时是觉得,越来越好玩了。

 

2016年3月29日,美国芝加哥(Chicago, IL, USA)

就在爱丁堡团队PNAS文章online五天之后,一篇文章在当时的新兴开放获取(open access)期刊PeerJ上发表,通讯作者为来自芝加哥大学的Murat Eren教授。在文中,作者们采用其团队刚刚自行开发的一种叫作Anvi'o(Eren et al., 2015)的生物信息学工具对北卡版基因组原始数据进行了分析,并惊讶地发现其拼接中存在数个几近完整的细菌基因组(主要来源于Moleculo长读段文库)(Delmont & Eren, 2016)。特别地,作者指出,其中一个疑似基因组被混拼的细菌来自”嗜几丁质如命”的噬几丁质菌属(Chitinophaga),而几丁质(chitin)恰是实验室培养水熊虫的主要食物之一(Delmont & Eren, 2016)(要不要说得这么隐晦?)。

如图,由内向外数,倒数第二圈代表北卡团队报道的水平转移基因的coverage情况,在第2-5圈(Moleculo测序)对应较高的coverage(Delmont & Eren, 2016)。

 

2016年5月31日,德国图宾根 日本东京 美国北卡教堂山

16年5月的最后一天,PNAS以letter形式一次性刊登两篇针对水熊虫基因组的文章。其中一篇正是来自之前提到的来自德国马普发育生物学研究所的团队(Bemm et al., 2016)。 

马普团队在文中表示,对北卡版基因组中发现如此高比例的水平转移基因感到震惊(astonished),而北卡版基因组的基因组大小的诡异之处促使他们进行重新分析:北卡版基因组大小为200余Mb,这与该团队2007年的估算的~78Mb相去甚远(Gabriel et al., 2007)(前文说过,爱丁堡团队也注意到了这一点)。马普团队于是对北卡团队的基因组的K-mer进行了详细分析,并将K-mer分为两类,一类是在所有北卡团队的所有illumina data set中都可以找到的,称为trusted K-mers,其余的则归为untrsuted K-mers。进一步分析发现,trusted K-mer同untrusted K-mer之间在coverage、GC含量等方面都存在很大差异。此外,他们也找到了同上面说到的PeerJ文章类似的现象:找到了一个大小为4.7Mb的细菌基因组。这些结果,直指北卡版基因组中可能存在严重的细菌污染。

 

在另一篇文章中,来自日本庆应义塾大学(Keio University)的Arakawa单枪匹马。其文章较为简单,甚至什么数据都没有show。Arakawa透露,他们也在对北卡团队和爱丁堡团队测序的相同的一种水熊虫,也就是H. dujardini,进行测序。Arakawa表示,他们的团队用青霉素/链霉素、清洗和显微镜检测等方法严格控制,将水熊虫肠胃微生物的污染的可能性降到最低(Arakawa, 2016)。Arakawa表示,他们的结果表示水平转移基因的比例在4.47%以下(Arakawa, 2016)。我们这里将Arakawa所领导的团队成为庆大团队(第四支队伍了)。 

与这两篇文章同时刊出的还有来自北卡团队的回应(Boothby & Goldstein, 2016)。北卡团队这次打出了三板斧。他们表示,最初在网上公布的水熊虫基因组是一个旧版本的,最新版本的基因组在后来才上传(第一式:虚晃一招)。而这一失误,可能影响到了包括马普团队在内的前面提到的两篇文章的分析(Bemm et al., 2016; Delmont & Eren, 2016)(第二式:引蛇出洞)。故此,北卡团队作者指出这两篇文章里提到的问题可能是由于北卡团队上传序列的失误造成的(第三式:回马一枪)。北卡团队对这一失误也表示诚挚歉意。最后,北卡团队又表示自己做了其他一些检测,依然坚持原来的观点,也就是支持水熊虫基因组中存在大量水平转移。

 

到这里,不知道大家是怎么看的。尽管北卡团队坚持原见,事实似乎越来越清晰,那就是北卡版基因组中似乎存在着较高的细菌污染并对团队造成误导导致严重夸大了水平转移基因的比例。弱弱问一句,莫非是这群人合伙炒作水熊虫的概念,或是在刷PNAS文章?当然,彻底解决争论,还是要靠新的高质量的基因组序列说话。

 

2016年9月20日,日本东京

就在几支队伍争论不休的时候,另一支来自日本的团队已经悄悄完成了另一种水熊虫(Ramazzottius varieornatus)的基因组测序(注意是与北卡、爱丁堡和庆大团队不同的水熊虫),并且在一年多的艰苦投稿历程之后,于2016年9月20日发表于Nature子刊Nature Communications(Hashimoto et al., 2016)。由于最后通讯作者Takekazu Kunieda来自东京大学,我们将他们称为东大团队。至此,本次水熊虫基因组奇幻之旅的五支队伍亮相完毕!

这篇文章主要有两个结论。第一点是在水熊虫Ramazzottius varieornatus的基因组中,水平转移基因的比例只有1.2%。第二点同基因组学关系不大,东大团队发现其中一种被称为Dsup(Damage suppressor)的DNA结合蛋白可能是可以提升水熊虫保护DNA、抵御射线伤害的秘密武器。东大团队在文中声称做过了非常严格的污染控制。特别地,他们移除了102个scaffold,因为有证据表明这些scaffold有可能被污染(水熊虫这家伙这么容易被细菌污染?),最终得到的组装N50=4.74Mbp,N90=1.3Mbp;基因组大小为55.8 Mbp,同用DNA染色(DNA staining)得到的估计(~55Mbp)相差不大(Hashimoto et al., 2016)。作者们继续对可能的水平转移基因进行了全基因组搜索。不过,东大团队最终只找到了234个(1.2%)可能的水平转移基因,这显然是对爱丁堡团队的有力支持。

 

不过,请注意,东大团队所测序的水熊虫(R. varieornatus)与北卡团队、爱丁堡团队和庆大团队测序的水熊虫(H. dujardini)并非相同的物种,甚至来自不同的属(genus)。所以,尽管越来越多证据表明北卡团队的文章很可能严重夸大了水平转移基因的比例,但因为终归不是相同物种,北卡团队似乎仍有回旋空间。

 

2017年6月27日,日本东京 英国爱丁堡

谜底在17年6月27日这一天揭晓了。虽然H. dujardini的基因组之前已经发布过两次,但是由于竞争的缘故,大家都很赶时间,所以一个高质量的基因组的始终没有release。这一次,爱丁堡团队和庆大团队强强联手,对水熊虫H. dujardini进行了基因组(重)测序,文章发表在著名生物学综合类期刊PLoS Biology上(Yoshida et al., 2017)(实际上,本文早在17年3月1日投放到bioRxiv以preprint的形式公开)。

 


不出所料,这一次的结果证实该水熊虫的基因组中没有比其他动物更多的水平转移发生。作者们表示,最少0.7%,最多2.3%的H. dujardini基因可能来自水平转移,这与北卡团队此前的估计大相径庭(Boothby et al., 2015),而与东大团队对于另一种水熊虫(R. varieornatus)的估算比较接近。而这篇文章实际上也只有小部分内容针对水平转移,更多关注点是在两种水熊虫的比较基因组学分析、转录组分析以及水熊虫与线虫和节肢动物之间的进化关系(大概是作者们觉得水平转移的问题已经没什么争议了吧)。

 

补刀:2017年9月5日,德国图宾根

就在东大团队和爱丁堡团队的文章发表的两个多月后,马普团队再现江湖。他们在bioRxiv上投放了对另一种水熊虫,Milnesium tardigradum,的基因组测序和分析的manuscript。结果显示,只有大概261个水平转移得到的基因,可以说是对北卡版基因组又补上一刀(Bemm et al., 2017)。实际上,虽然通讯作者Bemm现在马普发育所从事植物基因组学方面的研究,但这篇preprint的主要工作很可能是在其14年转入马普所前于德国伍兹堡大学(University of Würzburg)和同事一起完成的,猜测是之前不同领域的工作,所以大概不是跨界吧。

 

试金石

此外,北卡版基因组还不幸地成为了一些新生信软件的试金石,以检验这些新工具可靠性(Mallet et al., 2017; Marcais et al., 2018)。不过小编觉得,如果在17年以后仍以北卡版基因组做标尺,这个标准是不是定得有点儿,太低了?

 

结局

到这里,在清楚的事实面前,水熊虫高比例水平转移的说法在学界已经完全站不住脚了。北卡团队大佬Goldstein教授对东大团队和爱丁堡团队新测序的水熊虫基因组也表示了肯定:The authors' analysis methods, and their methods for getting clean DNA, are certainly an improvement over our own earlier methods(SAEY, 2017)。到最后,就连一篇Goldstein教授本人参与到的文章中,也放弃了对北卡版基因组的引用(Russell et al., 2017)。

 

小编在18年年初对北卡组的基因组paper的引用情况在谷歌学术上进行了一番研究。截止当时,一共有59次引用。其中,对其基因组进行正面评价(positive comment)的为7次,包括3次自印;持反面观点(negative comment)的为22次;还有5次不置可否(ambiguous)。其余的为对文章其他部分的引用。

 

纵观本次水熊虫的基因组故事,先后有五支团队分别独立地展开基因组测序,还有更多来自世界不同国家地区的学者们以不同的方式参与到了讨论之中,最终在数据共享和开放科学的推动下,一起完成了对水熊虫基因组的解读,也为我们奉献了一段传奇故事。谁是整个故事的赢家?我想没有比爱丁堡大学Blaxter教授的话更为合适的了:I think “a victory for open science” won the day (Blaxter, 2016)

 

尾声:2018年5月15日,加拿大蒙特利尔

就在这篇推送截稿的前几日,小编又特意找到和当时在第一时间表达对北卡团队水熊虫基因组质疑的那位老兄,询问他是否了解到水熊虫基因组事件的最新进展。得到的回应居然是一直没关心。当我告诉这位老兄他的预言被证实到了,这位老兄轻描淡写地说:“当时也没有什么证据,甚至连北卡团队的文章也没看,就是之前看过对水熊虫的科普,好像记得有人说尽管水熊虫生命力顽强但想洁净地培养也是很难,所以我觉得(北卡版基因组)高得吓人的水平转移基因比例就很可疑”。

小编匆匆放下刚刚抿了半口的Tim Hortons,

拿起笔,记录下这刚刚发生的历史。


 全  剧  终

 

参考资料

Arakawa K. 2016. No evidence for extensive horizontal gene transfer from the draft genome of a tardigrade. Proceedings of the National Academy of Sciences of the United States of America 113(22): E3057-E3057.

Bemm F, Weiss CL, Schultz J, Forster F. 2016. Genome of a tardigrade: Horizontal gene transfer or bacterial contamination? Proc Natl Acad Sci U S A 113(22): E3054-3056.

Bemm FM, Burleigh L, Foerster F, Schmucki R, Ebeling M, Janzen C, Dandekar T, Schill R, Certa U, Schultz J. 2017. Draft genome of the Eutardigrade Milnesium tardigradum sheds light on ecdysozoan evolution. bioRxiv.

Blaxter M 2016. Eight things I learnt from #tardigate.

Boothby TC, Goldstein B. 2016. REPLY TO BEMM ET AL. AND ARAKAWA: Identifying foreign genes in independent Hypsibius dujardini genome assemblies. Proceedings of the National Academy of Sciences of the United States of America 113(22): E3058-E3061.

Boothby TC, Tenlen JR, Smith FW, Wang JR, Patanella KA, Nishimura EO, Tintori SC, Li Q, Jones CD, Yandell M, Messina DN, Glasscock J, Goldstein B. 2015. Evidence for extensive horizontal gene transfer from the draft genome of a tardigrade. Proceedings of the National Academy of Sciences of the United States of America 112(52): 15976-15981.

Delmont TO, Eren AM. 2016. Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies. Peerj 4.

Eren AM, Esen OC, Quince C, Vineis JH, Morrison HG, Sogin ML, Delmont TO. 2015. Anvi'o: an advanced analysis and visualization platformfor 'omics data. Peerj 3.

Gabriel WN, McNuff R, Patel SK, Gregory TR, Jeck WR, Jones CD, Goldstein B. 2007. The tardigrade Hypsibius dujardini, a new model for studying the evolution of development. Developmental biology 312(2): 545-559.

Geerts H, Spiros A, Roberts P. 2013. Blobology : Using Mechanistic Computer Model Of Human Brain Circuits To Understand the Neurobiology Of Boldfmri. Journal of cognitive neuroscience: 75-75.

Hashimoto T, Horikawa DD, Saito Y, Kuwahara H, Kozuka-Hata H, Shin-I T, Minakuchi Y, Ohishi K, Motoyama A, Aizu T, Enomoto A, Kondo K, Tanaka S, Hara Y, Koshikawa S, Sagara H, Miura T, Yokobori S, Miyagawa K, Suzuki Y, Kubo T, Oyama M, Kohara Y, Fujiyama A, Arakawa K, Katayama T, Toyoda A, Kunieda T. 2016. Extremotolerant tardigrade genome and improved radiotolerance of human cultured cells by tardigrade-unique protein. Nature Communications 7.

Jonsson KI, Bertolani R. 2001. Facts and fiction about long-term survival in tardigrades. Journal of zoology 255: 121-123.

Jonsson KI, Rabbow E, Schill RO, Harms-Ringdahl M, Rettberg P. 2008. Tardigrades survive exposure to space in low Earth orbit. Current Biology 18(17): R729-R731.

Koutsovoulos G, Kumar S, Laetsch DR, Stevens L, Daub J, Conlon C, Maroon H, Thomas F, Aboobaker AA, Blaxter M. 2016. No evidence for extensive horizontal gene transfer in the genome of the tardigrade Hypsibius dujardini. Proceedings of the National Academy of Sciences of the United States of America 113(18): 5053-5058.

Kumar S, Blaxter ML. 2011. Simultaneous genome sequencing of symbionts and their hosts. Symbiosis 55(3): 119-126.

Mallet L, Bitard-Feildel T, Cerutti F, Chiapello H. 2017. PhylOligo: a package to identify contaminant or untargeted organism sequences in genome assemblies. Bioinformatics 33(20): 3283-3285.

Marcais G, Delcher AL, Phillippy AM, Coston R, Salzberg SL, Zimin A. 2018. MUMmer4: A fast and versatile genome alignment system. PLoS computational biology 14(1).

Richards TA, Monier A. 2016. A tale of two tardigrades. Proceedings of the National Academy of Sciences of the United States of America 113(18): 4892-4894.

Russell JJ, Theriot JA, Sood P, Marshall WF, Landweber LF, Fritz-Laylin L, Polka JK, Oliferenko S, Gerbich T, Gladfelter A, Umen J, Bezanilla M, Lancaster MA, He S, Gibson MC, Goldstein B, Tanaka EM, Hu CK, Brunet A. 2017. Non-model model organisms. BMC Biology 15.

SAEY TH 2017. Tardigrades aren’t champion gene swappers after all.

Yoshida Y, Koutsovoulos G, Laetsch DR, Stevens L, Kumar S, Horikawa DD, Ishino K, Komine S, Kunieda T, Tomita M, Blaxter M, Arakawa K. 2017. Comparative genomics of the tardigrades Hypsibius dujardini and Ramazzottius varieornatus. Plos Biology 15(7).


更多精彩内容,欢迎关注生信人

一个物种一个家

TCGA | 小工具 | 数据库 |组装注释 |   基因家族  |  Pvalue

基因预测  |bestorf |  sci NAR | 在线工具 | 生存分析 | 热图

 生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos

 舞台|基因组 | 黄金测序 | 套路 杂谈组装 |  进化 | 测序简史


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存